ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови).

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Інститут комп’ютерних наук та інформаційних технологій
Факультет:
Не вказано
Кафедра:
Системи автоматизованого проектуваня

Інформація про роботу

Рік:
2005
Тип роботи:
Методичні вказівки до лабораторної роботи
Предмет:
Комп’ютерна лінгвістика

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА” іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ Кафедра “Системи автоматизованого проектування”  ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови). Методичні вказівки до лабораторної роботи № 4 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика”. Затверджено на засіданні кафедри “Системи автоматизованого проектування” Протокол № 8 від 21.XI.2005 р. на засіданні методичної ради ІКНІ Протокол № 4-05/06 від 1.XII.2005 р. ВАК № 1769 від 12.XII.2005 р. Львів-2005 ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови). Методичні вказівки до лабораторної роботи № 4 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. А.Б.Романюк. - Львів: Національний університет ”Львівська політехніка”, 2005. - 24с. Укладачі: Романюк А. Б., канд. техн. наук, ст. викладач Відповідальний за випуск: Лобур М. В., доктор техн. наук, професор Рецензенти: Каркульовський В. І., канд. техн. наук, доцент Шуневич Б.І., канд. філол. наук, доцент. МЕТА РОБОТИ Вивчення основ програмування на мові Python. Ознайомлення з способами підрахунку слів. Ознайомлення з лексичною базою даних англійської мови WordNet. КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ 1.1 Підрахунок слів. Типові програми. Для підрахунку частоти слів у тексті (tokens і type) в Python часто використовується наступна програма  В рядку 1 здійснюється ініціалізація словника. Далі для кожного сова в кожному реченні відбувається збільшення відповідного лічильника (рядок 2). Для виведення вмісту словника на екран використовуються ітерації за ключами словника і записи словника виводяться на екран (рядок 3, виводяться перші впорядковані за абеткою 5 записів). 1.1.1 Частотний розподіл. Результати отримані в попередньому прикладі відповідають певній абстрактній структурі – набору елементів і їх частот – називають частотним розподілом. Так як при роботі з текстом часто потрібно здійснювати подібні обчислення в NLTK реалізовано окремий клас FreqDist(). Використовуючи цей клас приклад можна переписати більш зручно наступним чином:  Деякі методи властиві частотному розподілу і реалізовані в NLTK наведені в таблиці 1 Таблиця1  Отримані результати не недто цікаві. Можливо більш інформативним був би список найчастотніших слів (tokens). Об’єкт FreqDist є певного виду словником і тому можна легко побудувати пари ключ-значення і відсортувати їх по спаданню, як показано нижче:  Note the arguments of the sorted() function (line `): itemgetter(1) returns a function that can be called on any sequence object to return the item at position 1; reverse=True performs the sort in reverse order. Together, these ensure that the word with the highest frequency is listed first. This reversed sort by frequency is such a common requirement that it is built into the FreqDist object. Listing demonstrates this, and also prints rank and cumulative frequency. Unfortunately the output in Listing is surprisingly dull. A mere handful of tokens account for a third of the text. They just represent the plumbing of English text, and are completely uninformative! How can we find words that are more indicative of a text? As we will see in the exercises for this section, we can modify the program to discard the non-content words. In the next section we see another approach.  Отримані результати є малоінформативними, третину списку з...
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини